Definir el Estándar Oro: Error Cuadrático Medio (MSE)
Para cuantificar cuán lejos está nuestra estimación $T$ del valor real $\psi(\theta)$, definimos el Error Cuadrático Medio (Definición 6.3.1):
$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$
Este es la distancia cuadrada promedio entre nuestro estimador y el objetivo. Un estimador perfecto tendría un MSE de cero, pero en un mundo de ruido aleatorio, nos esforzamos por minimizarlo.
Teorema 8.1.1: La Arquitectura del Error
¿Por qué falla un estimador? El Teorema 8.1.1 proporciona el plano. Si $T$ tiene un segundo momento finito, el error respecto a cualquier constante $c$ viene dado por:
Esta fórmula revela que el error cuadrado total se minimiza solo cuando elegimos $c = E(T)$. En el contexto de la inferencia, establecemos $c = \psi(\theta)$, lo que conduce a la famosa descomposición:
MSE = Varianza + Sesgo$^2$
El Compromiso entre Precisión y Exactitud
Imagina dos balanzas en un laboratorio de control de calidad:
- El Reliquia Precisa: Da el mismo peso cada vez (baja varianza), pero está mal calibrada en 2 gramos (alto sesgo).
- El Sabio Errático: Es correcto en promedio (sesgo cero), pero oscila salvajemente entre mediciones (alta varianza).
El Teorema 8.1.1 nos permite calcular exactamente cuál balanza proporciona el error total más bajo. A menudo, estamos dispuestos a aceptar una pequeña desviación sistemática (sesgo) si reduce drásticamente el ruido (varianza).
Ejemplo 8.1.1: Suficiencia e Información
La optimalidad está ligada a Información. Considera un espacio muestral $S = \{1, 2, 3, 4\}$. Si los resultados 2, 3 y 4 son igualmente probables bajo cualquier parámetro posible, portan la misma verosimilitud. Podemos definir un estadístico suficiente $U$ que agrupa estos resultados sin perder ninguna capacidad para realizar una inferencia óptima. Como se muestra en la simulación, si $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$, un estimador óptimo los trata como un solo evento informativo.